我们使用Relu激活功能调查一个隐藏层网络的Fisher信息矩阵(FIM),并在某些条件下获得FIM的近似光谱分解。从这种分解中,我们可以近似主要特征值和特征向量。我们通过数值模拟确认,当隐藏节点的数量约为10000时,所获得的分解大致正确。
translated by 谷歌翻译
The deep learning technique was used to increase the performance of single image super-resolution (SISR). However, most existing CNN-based SISR approaches primarily focus on establishing deeper or larger networks to extract more significant high-level features. Usually, the pixel-level loss between the target high-resolution image and the estimated image is used, but the neighbor relations between pixels in the image are seldom used. On the other hand, according to observations, a pixel's neighbor relationship contains rich information about the spatial structure, local context, and structural knowledge. Based on this fact, in this paper, we utilize pixel's neighbor relationships in a different perspective, and we propose the differences of neighboring pixels to regularize the CNN by constructing a graph from the estimated image and the ground-truth image. The proposed method outperforms the state-of-the-art methods in terms of quantitative and qualitative evaluation of the benchmark datasets. Keywords: Super-resolution, Convolutional Neural Networks, Deep Learning
translated by 谷歌翻译
Telework "avatar work," in which people with disabilities can engage in physical work such as customer service, is being implemented in society. In order to enable avatar work in a variety of occupations, we propose a mobile sales system using a mobile frozen drink machine and an avatar robot "OriHime", focusing on mobile customer service like peddling. The effect of the peddling by the system on the customers are examined based on the results of video annotation.
translated by 谷歌翻译
We propose GANStrument, a generative adversarial model for instrument sound synthesis. Given a one-shot sound as input, it is able to generate pitched instrument sounds that reflect the timbre of the input within an interactive time. By exploiting instance conditioning, GANStrument achieves better fidelity and diversity of synthesized sounds and generalization ability to various inputs. In addition, we introduce an adversarial training scheme for a pitch-invariant feature extractor that significantly improves the pitch accuracy and timbre consistency. Experimental results show that GANStrument outperforms strong baselines that do not use instance conditioning in terms of generation quality and input editability. Qualitative examples are available online.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
公共网站上可用的音频数据量正在迅速增长,并且需要有效访问所需数据的有效机制。我们提出了一种基于内容的音频检索方法,该方法可以通过引入辅助文本信息来检索与查询音频相似但略有不同的目标音频,该信息描述了查询和目标音频之间的差异。虽然传统基于内容的音频检索的范围仅限于与查询音频相似的音频,但提出的方法可以通过添加辅助文本查询模型的嵌入来调整检索范围,以嵌入查询示例音频中的嵌入共享的潜在空间。为了评估我们的方法,我们构建了一个数据集,其中包括两个不同的音频剪辑以及描述差异的文本。实验结果表明,所提出的方法比基线更准确地检索配对的音频。我们还基于可视化确认了所提出的方法获得了共享的潜在空间,在该空间中,音频差和相应的文本表示为相似的嵌入向量。
translated by 谷歌翻译
下一代物理科学涉及机器人科学家 - 自主物理科学系统,能够在封闭环中实验设计,执行和分析。这样的系统已显示出对科学探索和发现的现实成功,包括首次发现一流的材料。为了构建和使用这些系统,下一代劳动力需要在不同领域的专业知识,包括ML,控制系统,测量科学,材料合成,决策理论等。但是,教育滞后。教育工作者需要一个低成本,易于使用的平台来教授所需的技能。行业还可以使用这样的平台来开发和评估自主物理科学方法论。我们介绍了科学教育的下一代,这是建立低成本自治科学家的套件。该套件在马里兰州大学的两门课程中用于教授本科和研究生自治物理科学。我们以自主模型探索,优化和确定的双重任务来讨论其在课程中的用途及其更大的能力,并以自主实验的“发现”为例。
translated by 谷歌翻译
对于新参与者 - 执行摘要:(1)任务是为语音数据开发语音匿名系统,该系统隐藏了说话者的语音身份,同时保护语言内容,副语言属性,清晰度和自然性。 (2)除3种不同的基线匿名系统,评估脚本和指标外,还提供了培训,开发和评估数据集。参与者应用其开发的匿名系统,运行评估脚本并向组织者提交客观评估结果和匿名语音数据。 (3)结果将在与Interspeech 2022结合的研讨会上展示,邀请所有参与者介绍其挑战系统并提交其他研讨会论文。对于熟悉语音挑战的读者 - 更改W.R.T. 2020年:(1)以自动扬声器验证(ASV)系统的形式进行了更强的半信息攻击模型,该系统接受了匿名(每位)语音数据的训练。 (2)互补指标包括等于误差率(EER)作为隐私指标,单词错误率(WER)作为主要实用性度量,以及音调相关性和声音独特性作为辅助效用度量标准。 (3)基于一组最小目标隐私要求的新排名策略。
translated by 谷歌翻译
罕见的事件搜索使我们能够通过利用专门的大型探测器来搜索无法与其他方式无法访问的新物理学。机器学习提供了一种新工具来最大化这些检测器提供的信息。信息很少,这迫使这些算法从最低级别的数据开始,并利用检测器中的所有对称性来产生结果。在这项工作中,我们提出了Kamnet,该Kamnet在几何深度学习和时空数据分析中实现了突破,以最大程度地提高Kamland-Zen的物理范围,Kamland-Zen是kiloton量表球形液体闪烁体检测器,以寻找中微子的中微子双β衰减($ 0 \ beta \ beta \ beta \ beta $) 。使用Kamland的简化背景模型,我们表明Kamnet在基准MC模拟上以较高的鲁棒性水平优于常规CNN。然后,我们使用模拟数据,证明了Kamnet将Kamland-Zen的敏感性提高到$ 0 \ nu \ beta \ beta \ beta $和$ 0 \ nu \ beta \ beta \ beta $的能力。这项工作的一个关键组成部分是增加了注意机制来阐明基础物理Kamnet用于背景排斥。
translated by 谷歌翻译